Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/knowledge_accumulator/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Knowledge Accumulator | Telegram Webview: knowledge_accumulator/284 -
Telegram Group & Telegram Channel
Continuous Thought Machines [2025] - революция в нейросетях?

В sakana.ai есть не только департамент генерации говностатей с помощью LLM, но и люди, пытающиеся делать фундаментальные исследования. Давайте посмотрим на их последний продукт. Начнём с мотивации.

Текущие нейросети применяют к вектору данных последовательность матричных (или около того) операций. В таких вычислительных графах отсутствует какая-либо временная динамика, время влияет только на скорость получения результата.

То же самое нельзя сказать про человеческий мозг. Так как он оптимизирован эволюцией на выполнение задач, то не стесняется эксплуатировать все доступные инструменты, в том числе и время. В пример приводится Spike-timing-dependent plasticity - связь между нейронами может изменяться в зависимости от того, насколько близко по времени они были активированы.

Можно представить, как введение временной динамики значительно увеличивает пространство того, что может быть сделано одним и тем же количеством нейроном - это как перейти из 2D-мира в 3D. Авторы решаются отыскать нейроархитектуру, использующую время в своих вычислениях.

Итак, у нас есть D "нейронов", оперирующих над пространством размерности D - "пре-активациями". На каждом шаге применения модели каждому нейрону подаётся M последних "пре-активаций" и каждый из них выдаёт по скаляру, которые образуют вектор "пост-активаций". Из этого вектора будут считаться "пре-активации" следующего шага.

С данными эта конструкция взаимодействует во время так называемой "синхронизации". Тут творчество авторов начинает выходить из под контроля. Они берут всю историю пост-активаций - матрицу размером DxT, сэмплируют K рандомных пар нейронов и считают скалярные произведения историй их пост-активаций, это называется "synchronization representations". Один такой вектор умножается на матрицу весов для получения выходов, а другой такой вектор умножается на матрицу для получения вектора Query для Attention-слоя, который применяется к входным данным 🤯

Результат этого attention как раз используется вместе с вектором пост-активаций для расчёта следующего вектора пре-активаций.

Из плюсов модели можно отметить следующее - во-первых, в ней зашита возможность "думать" над объектом разное количество времени. Её функция ошибки сделана таким образом, чтобы она могла "подумать" в течение N циклов и потом выдать правильный ответ. Во-вторых, тут действительно есть временное взаимодействие между нейронами.

Но так-то перед нами, конечно, очередной мертворождённый шедевр кустарного нейростроения. С вероятностью 99% никто другой не будет всерьёз смотреть на эту архитектуру, и главная причина этому - авторы слишком много думали про нейросети. Это, вообще говоря, эпидемия среди ML-исследователей.

На мой взгляд, чтобы получить научный прорыв, надо пытаться решать нерешённую задачу. Трансформеры появились как ответ на практический вызов, а не в результате свободного полёта больной фантазии. На подкасте у Фридмана David Silver, сделавший AlphaGo, рассказывает о том, как он годами бился над алгоритмом, играющим в эту игру, и свёрточные нейросети просто попались под руку. AGI, уверен, появится как решение проблемы Out-of-Distribution генерализации.

Да, идея использовать временную динамику в алгоритмах в принципе интересна, но, мне кажется, это скорее вопрос вычислительной эффективности. Если её использование позволяет считать быстрее, чем "временно-плоские" алгоритмы, то за это лайк 👍 Возможно ли на "временно-плоских" видеокартах эффективно запускать "временно-кривые" алгоритмы? Кто знает.

А пока что у нас на руках очень переусложнённый гибрид трансформера и рекуррентной сети, который кучу раз применяют на одном объекте. Да, авторы показали, что картинки это классифицирует лучше, чем LSTM, но также или хуже, чем CNN. Молодцы 🏅

@knowledge_accumulator
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/knowledge_accumulator/284
Create:
Last Update:

Continuous Thought Machines [2025] - революция в нейросетях?

В sakana.ai есть не только департамент генерации говностатей с помощью LLM, но и люди, пытающиеся делать фундаментальные исследования. Давайте посмотрим на их последний продукт. Начнём с мотивации.

Текущие нейросети применяют к вектору данных последовательность матричных (или около того) операций. В таких вычислительных графах отсутствует какая-либо временная динамика, время влияет только на скорость получения результата.

То же самое нельзя сказать про человеческий мозг. Так как он оптимизирован эволюцией на выполнение задач, то не стесняется эксплуатировать все доступные инструменты, в том числе и время. В пример приводится Spike-timing-dependent plasticity - связь между нейронами может изменяться в зависимости от того, насколько близко по времени они были активированы.

Можно представить, как введение временной динамики значительно увеличивает пространство того, что может быть сделано одним и тем же количеством нейроном - это как перейти из 2D-мира в 3D. Авторы решаются отыскать нейроархитектуру, использующую время в своих вычислениях.

Итак, у нас есть D "нейронов", оперирующих над пространством размерности D - "пре-активациями". На каждом шаге применения модели каждому нейрону подаётся M последних "пре-активаций" и каждый из них выдаёт по скаляру, которые образуют вектор "пост-активаций". Из этого вектора будут считаться "пре-активации" следующего шага.

С данными эта конструкция взаимодействует во время так называемой "синхронизации". Тут творчество авторов начинает выходить из под контроля. Они берут всю историю пост-активаций - матрицу размером DxT, сэмплируют K рандомных пар нейронов и считают скалярные произведения историй их пост-активаций, это называется "synchronization representations". Один такой вектор умножается на матрицу весов для получения выходов, а другой такой вектор умножается на матрицу для получения вектора Query для Attention-слоя, который применяется к входным данным 🤯

Результат этого attention как раз используется вместе с вектором пост-активаций для расчёта следующего вектора пре-активаций.

Из плюсов модели можно отметить следующее - во-первых, в ней зашита возможность "думать" над объектом разное количество времени. Её функция ошибки сделана таким образом, чтобы она могла "подумать" в течение N циклов и потом выдать правильный ответ. Во-вторых, тут действительно есть временное взаимодействие между нейронами.

Но так-то перед нами, конечно, очередной мертворождённый шедевр кустарного нейростроения. С вероятностью 99% никто другой не будет всерьёз смотреть на эту архитектуру, и главная причина этому - авторы слишком много думали про нейросети. Это, вообще говоря, эпидемия среди ML-исследователей.

На мой взгляд, чтобы получить научный прорыв, надо пытаться решать нерешённую задачу. Трансформеры появились как ответ на практический вызов, а не в результате свободного полёта больной фантазии. На подкасте у Фридмана David Silver, сделавший AlphaGo, рассказывает о том, как он годами бился над алгоритмом, играющим в эту игру, и свёрточные нейросети просто попались под руку. AGI, уверен, появится как решение проблемы Out-of-Distribution генерализации.

Да, идея использовать временную динамику в алгоритмах в принципе интересна, но, мне кажется, это скорее вопрос вычислительной эффективности. Если её использование позволяет считать быстрее, чем "временно-плоские" алгоритмы, то за это лайк 👍 Возможно ли на "временно-плоских" видеокартах эффективно запускать "временно-кривые" алгоритмы? Кто знает.

А пока что у нас на руках очень переусложнённый гибрид трансформера и рекуррентной сети, который кучу раз применяют на одном объекте. Да, авторы показали, что картинки это классифицирует лучше, чем LSTM, но также или хуже, чем CNN. Молодцы 🏅

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tg-me.com/knowledge_accumulator/284

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

NEWS: Telegram supports Facetime video calls NOW!

Secure video calling is in high demand. As an alternative to Zoom, many people are using end-to-end encrypted apps such as WhatsApp, FaceTime or Signal to speak to friends and family face-to-face since coronavirus lockdowns started to take place across the world. There’s another option—secure communications app Telegram just added video calling to its feature set, available on both iOS and Android. The new feature is also super secure—like Signal and WhatsApp and unlike Zoom (yet), video calls will be end-to-end encrypted.

Telegram Auto-Delete Messages in Any Chat

Some messages aren’t supposed to last forever. There are some Telegram groups and conversations where it’s best if messages are automatically deleted in a day or a week. Here’s how to auto-delete messages in any Telegram chat. You can enable the auto-delete feature on a per-chat basis. It works for both one-on-one conversations and group chats. Previously, you needed to use the Secret Chat feature to automatically delete messages after a set time. At the time of writing, you can choose to automatically delete messages after a day or a week. Telegram starts the timer once they are sent, not after they are read. This won’t affect the messages that were sent before enabling the feature.

Knowledge Accumulator from cn


Telegram Knowledge Accumulator
FROM USA